这项研究比较了基于复发神经网络的顺序图像分类方法。我们描述了基于复发性神经网络的方法,例如长短记忆​​(LSTM),双向长短记忆(BILSTM)体系结构等。我们还回顾了最新的顺序图像分类体系结构。我们主要关注研究中的LSTM,Bilstm,时间卷积网络和独立的复发性神经网络体系结构。众所周知,RNN缺乏学习输入序列中的长期依赖性。我们在输入序列上使用正交Ramanujan周期转换使用简单的特征构造方法。实验表明,如果将这些功能赋予LSTM或BilstM网络,则性能会大大提高。我们在这项研究上的重点是同时提高训练精度,以减少LSTM和BilstM体系结构的训练时间,但不在推动最先进的结果上,因此我们使用简单的LSTM/BILSTM架构。我们将顺序输入与构造功能作为MNIST和CIFAR数据集的单层LSTM和BILSTM网络的输入进行比较。我们观察到对LSTM网络进行的顺序输入,对五个时期进行了128个隐藏的单位训练,导致训练精度为33%,而构造的功能作为相同LSTM网络的输入,导致训练精度为90%,时间较小1/3。
translated by 谷歌翻译
Model counting is a fundamental problem which has been influential in many applications, from artificial intelligence to formal verification. Due to the intrinsic hardness of model counting, approximate techniques have been developed to solve real-world instances of model counting. This paper designs a new anytime approach called PartialKC for approximate model counting. The idea is a form of partial knowledge compilation to provide an unbiased estimate of the model count which can converge to the exact count. Our empirical analysis demonstrates that PartialKC achieves significant scalability and accuracy over prior state-of-the-art approximate counters, including satss and STS. Interestingly, the empirical results show that PartialKC reaches convergence for many instances and therefore provides exact model counting performance comparable to state-of-the-art exact counters.
translated by 谷歌翻译
我们介绍了一个新的数据集,以通过口头答案对知识图(kgs)回答对话问题。目前,关于KGS的问题回答是针对单转问题的答案(KGQA)或多型对话对话问题答案(Convqa)。但是,在现实情况下(例如,Siri,Alexa和Google Assistant等语音助手),用户更喜欢口头上的答案。本文通过将现有的ConvQA数据集扩展到具有多种释义的言语答案,从而为最先进的方法做出了贡献。我们使用五个序列到序列模型进行实验,以生成答案响应,同时保持语法正确性。我们还执行错误分析,该分析详细介绍了模型在指定类别中的错误预测率。我们提出的随着答案语言扩展的数据集可公开使用,其中包含有关其更广泛用途的使用的详细文档。
translated by 谷歌翻译
基于图像检索的应用需要在中间空间中进行编辑和关联,这些空间代表了诸如对象及其关系的高级概念,而不是密集的像素级表示,例如RGB图像或语义标签图。我们专注于这样的表示形式,场景图,并提出了一个新颖的场景扩展任务,在其中我们通过添加新节点(对象)和相应的关系来丰富输入种子图。为此,我们将场景图扩展作为一个顺序预测任务,涉及首先预测新节点,然后预测图中新预测的节点和以前的节点之间的一系列关系的多个步骤。我们为观察到的图表提出了一个测序策略,该图形保留了节点之间的聚类模式。此外,我们利用外部知识来训练我们的图生成模型,从而对节点预测进行更大的概括。由于现有的最大平均差异(MMD)指标的效率低下,用于评估节点之间的预测关系(对象),因此我们设计了新颖的指标,可以全面评估预测关系的不同方面。我们对视觉基因组和VRD数据集进行了广泛的实验,以使用标准的基于MMD的指标和我们建议的指标来评估扩展的场景图。我们观察到,与GraphRNN这样的基线方法,通过我们的方法,GEM,GEMS生成的图形更好地表示场景图的真实分布。
translated by 谷歌翻译
机器学习已随着医疗,法律和运输等各种安全领域的应用而无所不在。在这些领域中,机器学习提供的高风险决策需要研究人员设计可解释的模型,在该模型中,预测对人类是可以理解的。在可解释的机器学习中,基于规则的分类器在通过包含输入功能的一组规则来表示决策边界方面特别有效。基于规则的分类器的解释性通常与规则的规模有关,其中较小的规则被认为更容易解释。要学习这样的分类器,蛮力的直接方法是考虑一个优化问题,该问题试图学习具有接近最大准确性的最小分类规则。由于其组合性质,该优化问题在计算上是可悲的,因此,在大型数据集中,该问题无法扩展。为此,在本文中,我们研究了基于学习规则的分类器的准确性,可解释性和可伸缩性之间的三角关系。本文的贡献是一个可解释的学习框架IMLI,这是基于最大的满意度(MAXSAT),用于在命题逻辑中表达的合成分类规则。尽管在过去十年中MaxSat解决方案取得了进展,但基于最直接的MaxSat解决方案仍无法扩展。因此,我们通过整合迷你批次学习和迭代规则学习,将有效的增量学习技术纳入了MaxSAT公式中。在我们的实验中,IMLI在预测准确性,可解释性和可伸缩性之间取得了最佳平衡。作为一个应用程序,我们将IMLI部署在学习流行的可解释分类器(例如决策清单和决策集)中。
translated by 谷歌翻译
最新提出的基于变压器的图形模型的作品证明了香草变压器用于图形表示学习的不足。要了解这种不足,需要研究变压器的光谱分析是否会揭示其对其表现力的见解。类似的研究已经确定,图神经网络(GNN)的光谱分析为其表现力提供了额外的观点。在这项工作中,我们系统地研究并建立了变压器领域中的空间和光谱域之间的联系。我们进一步提供了理论分析,并证明了变压器中的空间注意机制无法有效捕获所需的频率响应,因此,固有地限制了其在光谱空间中的表现力。因此,我们提出了feta,该框架旨在在整个图形频谱(即图形的实际频率成分)上进行注意力类似于空间空间中的注意力。经验结果表明,FETA在标准基准的所有任务中为香草变压器提供均匀的性能增益,并且可以轻松地扩展到具有低通特性的基于GNN的模型(例如GAT)。
translated by 谷歌翻译
图像恢复是从降级版本中恢复清洁图像的任务。在大多数情况下,劣化是空间变化的,并且它需要恢复网络到本地化并恢复受影响的区域。在本文中,我们提出了一种适用于处理受实际发生的伪像(如模糊,雨杆)的图像中的图像中降解的图像特异性和空间不同性质的新方法。与直接学习劣化和清洁图像之间的映射直接学习映射的现有方法不同,我们将恢复任务分解为劣化定位和降级的区域引导恢复的两个阶段。我们的前提是使用劣化掩模预测的辅助任务来指导恢复过程。我们展示了对此辅助任务培训的模型包含重要地区知识,可以利用使用细心知识蒸馏技术来指导恢复网络的培训。此外,我们提出了掩模引导的卷积和全局上下文聚合模块,专注于恢复劣化区域。通过实现强大基线的显着改善,证明了所提出的方法的有效性。
translated by 谷歌翻译
通过最近使用深神经网络,图像纯洁方法显示出显着的改进。然而,许多这些技术经常产生与周围区域不一致的扭曲的结构或模糊纹理。该问题植根于编码器层的无效,在建立缺失地区的完全和忠实的嵌入时。为了解决这个问题,两阶段方法部署了两个单独的网络,用于对染色图像的粗略和精细估计。一些方法利用手工制作的特征,如边缘或轮廓,以指导重建过程。由于多个发电机网络,手工特征有限,并且在地面真理中存在的信息的次优,这些方法遭受巨大的计算开销。通过这些观察结果,我们提出了一种基于蒸馏的方法,用于以自适应方式为编码器层提供直接特征级监督。我们部署交叉和自蒸馏技术,并讨论了对编码器中专用完成块的需要,以实现蒸馏靶。我们对多个数据集进行广泛的评估以验证我们的方法。
translated by 谷歌翻译
本文铲球动态场景去模糊的问题。虽然终端到终端的全卷积的设计最近提出的国家的最先进的非匀速运动去模糊,他们的表现复杂的权衡仍是次优的。现有的方法在普通卷积层,内核尺寸的数量,来与模型的大小和推理速度的增加的负担,一个简单的增量实现大的感受野。在这项工作中,我们提出了一个有效的像素适应并配内和跨不同的图像处理大量的模糊变化周到的设计。我们还提出了一种有效的内容感知全局 - 局部滤波模块通过不仅考虑像素的全局依赖关系还动态使用相邻像素是显著提高性能。我们使用上述模块构成的补丁分层架构周到隐式地发现存在于所述输入图像并依次模糊的空间变化进行的中间特征局部和全局调制。与现有技术的上去模糊基准广泛的定性和定量的比较表明了该网络的优越性。
translated by 谷歌翻译
在实践中,图像可以包含不同颜色通道的不同噪声,这不受现有的超分辨率方法确认。在本文中,我们通过关注颜色通道来提出超声噪音图像。噪声统计从输入的低分辨率图像盲目地估计,并且用于以数据成本为不同颜色信道分配不同权重。通过与自适应权重相关联的核规范最小化,通过核标准最小化强制强制执行视觉数据的隐式低秩结构,这将作为正则化术语添加到成本中。另外,通过涉及投影到PCA的另一个正则化术语将图像的多尺度细节添加到模型中,该术语是使用在输入图像的不同尺度上提取的类似斑块构造的。结果展示了在实际方案中的方法的超声解决能力。
translated by 谷歌翻译